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基于 项 编码 的 分 布 式 频繁 项 集 挖掘 算法 


郑 静 益 ， 邓 晓 衡 " 


(中 南大 学 软件 学 院 , 长 沙 410075) 


摘 要 : Apriori 算法 是 解决 频繁 项 集 挖 据 最 常用 的 算法 之 一 , 但 多 轮 迭 代 扫 描 完 整数 据 集 的 计算 方式 ， 严 重 影响 算法 
效率 且 难 以 并 行 化 处 理 。 随 着 数据 规模 的 持续 增 大 , 这 一 问题 日 益 严重 。 针 对 这 一 问题 , 提出 了 一 种 基于 项 编码 和 Spark 
计算 框架 的 Apriori 并 行 化 处 理 方法 一 一 JEBDA 算法 ， 利 用 项 编码 完整 保存 项 集 信息 ， 在 不 重复 扫描 完整 数据 集 的 情 
况 下 完成 频繁 项 集 挖 据 ， 同 时 利用 Spark 的 广播 变量 实现 并 行 化 处 理 。 与 其 他 分 布 式 Apriori 算法 在 不 同 规模 的 数据 集 
上 进行 性 能 比较 , 发 现 IEBDA 算法 从 第 一 轮 选 代 后 加 速效 果 明 显 。 结 果 表 明 ， 该 算法 可 以 提高 大 数据 环境 下 的 多 轮 迁 
代 的 频繁 项 集 挖 据 效 率 。 
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Novel distributed itemset mining algorithm based on item encoding 


Zheng Jingyi, Deng Xiaohengi 
(College of Software, Central South University, Changsha 410075, China) 


Abstract: Apriori is one of the most widely used algorithm to discover frequent patterns. However, scanning the entire dataset 
in each iteration makes this algorithm inefficient and hard to be in parallel. With the size of datasets gets larger continuously, 
this problem is becoming more and more serious. Therefore, a novel algorithm called IEBDA is proposed. This algorithm is a 
kind of parallelization of Apriori based on item encoding and Spark framework. Saving information of each itemset by item 
encoding so that it can finish frequent itemset mining without scanning the whole dataset repeatedly. The broadcast variables of 
Spark enables this algorithm to be in parallel. Compared with other distributed Apriori algorithms on datasets with different 


sizes, the acceleration of mining after the first iteration is obvious. The results show that this algorithm do efficiently improve 


the multi-iteratively frequent itemset mining in big data environment. 
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生 的 候选 项 集 数量 也 随 着 数据 量 的 增加 而 增加 ， 内 存 消耗 问题 
无 法 忽视 ， 严 重 时 甚至 会 因为 内 存 滋 出 而 无 法 得 出 挖掘 结果 。 
关联 规则 挖掘 是 基于 规则 的 学 习 技术 ， 致 力 于 发 现 数据 集 ”Hadoop 和 Spark 等 大 数据 平台 的 出 现 为 Apriori 算法 的 并 行 化 

中 数据 对 象 之 间 的 重要 关系 。 创 建 所 有 可 能 的 项 集 规则 需要 大 ”处 理 提 供 了 思路 , 然而 Hadoop 提供 的 Map-Reduce 编程 模型 需 
量 的 内 存 和 cpu 资源。 因此， 为 了 减少 潜在 项 集 的 数量 ， 只 要 反复 读 写 磁盘 ， 并 不 适合 于 处 理 迭 代 式 的 算法 ， 因 此 很 多 
虑 利用 频繁 项 集 来 建立 关联 规则 。Apriori 是 众多 频繁 项 集 挖 掘 。 于 Hadoop 改进 的 并 行 化 Apriori 算法 和 变种 算法 B-11， 通 过 集 
算法 中 最 常用 且 最 易 理解 的 算法 之 一 。Apriori 算法 0 以 迭代  ” 群 的 形式 ， 增 加 cpu 和 内 存 ， 能 应 用 于 大 数据 集 并 计算 出 最 后 
方式 搜索 磊 阶 候选 项 集 的 频繁 项 集 ， 其 中 上 表示 迭代 的 次 数 。 结果 ， 但 是 算法 的 效率 仍然 不 尽 如 人 意 。 而 Spark 基于 内 存 的 
通过 预先 设置 好 的 支持 度 阔 值 ， 判 断 项 集 是 否 符合 频繁 条 件 。 计算 模型 则 可 能 是 一 种 更 好 的 解决 思路 。 目 前 已 经 有 不 少 基 于 
次 迭代 产生 的 频繁 项 集 用 于 在 第 ecl 轮 和 迭代 中 找到 更 高 阶 。 ”Spark 的 Apriori 算法 优化 工作 52I9， 相 较 之 前 的 基于 Hadoop 
频繁 项 集 。 的 改进 ， 取 得 了 更 好 的 效果 ， 但 是 在 中 间 候 选项 集 的 存储 方式 
但 是 ， 随 着 大 数据 时 代 的 来 临 ，Apriori 算法 存在 缺陷 被 不 上 仍 有 进一步 改进 的 空间 ， 因 此 在 数据 集 的 重复 扫描 问题 上 和 
断 放 大 。 首 先 ， 每 次 迭代 中 扫描 整个 数据 集 ， 数 据 规模 的 不 断 ”候选 项 集 剪 枝 工 作 上 ， 仍 然 有 进一步 优化 的 可 能 。 
增 大 ， 使 得 算法 计算 消耗 的 时 间 急 剧 增加 。 其 次 ， 每 轮 迭 代 产 本 文 的 主要 贡献 如 下 :a) 提 出 一 种 新 的 分 布 式 频繁 项 集 挖 
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录用 稿 


掘 算 法 一 一 IEBDA， 利 用 项 编码 表示 项 及 其 在 每 条 数据 记录 中 


的 出 现 情况 ， 利 用 编码 按 位 相 与 的 计算 方式 ， 避 免 重 复 扫 描 完 
整 的 数据 集 , 大 大 减少 计算 时 间 。 结 合 


Spark 分 布 式 计算 框架 ， 


设计 新 的 并 行 化 实现 方法 ， 将 编码 计算 并 行 化 的 执行 ， 在 保证 


算法 正确 性 的 前 担 下， 加 快 计算 速度 ， 进 一 步 提高 算法 效率 ; 
b) 应 用 不 同 的 数据 集 ， 验 证 算法 在 不 同 规模 数据 集 上 的 效率 ， 
将 该 算法 在 大 数据 环境 下 与 同类 算法 比较 ， 证 明 其 在 多 轮 迭 代 
下 的 优势 ， 同 时 也 说 明 该 算法 存在 的 缺陷 并 分 析 进 一 步 优 化 的 
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思路 ; 
1 ”相关 工作 


本 文 研究 Apriori 及 其 变形 算法 在 分 布 式 上 的 改进 , 随 着 近 


几 年 大 数据 的 引入 ， 单 机 系统 处 到 


效率 低 的 缺陷 越发 明显 。 于 


是 ， 频 繁 项 集 挖 气 研究 的 重心 也 转向 了 分 布 式 计算 环境 。 


Hadoop 是 众多 数据 挖掘 研究 人 员 采 用 的 分 布 式 计 算 框架 
之 一 ， 尽管 ，Hadoop 将 数据 保存 到 HDFS 并 读 回 的 方式 , 需要 
FERFE, VET Hadoop 的 


庞大 的 磁盘 读 写 ， 并 不 适 


Apriori 改进 算法 还 是 被 陆续 提出 并 是 
等 人 Bl 提出 了 Apriori 算法 在 多 
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郑 静 益 ， 等 : 基于 项 编码 的 分 布 式 频繁 项 集 挖 据 算 法 


本 文 提 出 的 正 BDA 算法 , 采用 项 编码 的 方式 , 进一步 优化 
算法 的 频繁 项 集 计 算 和 候选 项 集 剪 枝 ， 在 整个 算法 过 程 中 ， 只 


集 生 成 频繁 1 项 集 即 可 开始 算法 的 迭代 ， 


和 迭 代 过 程 中 无 须 再 次 扫描 数据 集 ， 只 需要 对 内 存 中 的 频繁 k 


需要 扫描 一 次 完整 数据 
在 
项 
群 实现 ， 并 行 化 地 计算 
势 。 
2 


集 编码 进行 操作 即 可 生成 候选 kH 项 集 。 算 法 基于 Spark 集 
频繁 项 集 ， 很 好 地 适应 当下 的 大 数据 趋 


基于 项 编码 的 频繁 项 集 挖 掘 算法 


本 章节 将 详细 介绍 


基于 项 编码 的 频繁 项 集 控 掘 算 法 71。 其 


中 ，2.1 节 介绍 编码 规则 ，2.2 节 则 描述 整个 算法 的 挖掘 连 代 过 


程 


o 


2.1 编码 规则 


数 


区 得 了 一 定 的 优化 效果 。Ye 


几 环境 下 的 并 行 实现 , 实现 了 一 


个 基于 数据 结构 的 Apriori 算法 的 快速 版 本 ， 并 分 析 其 性 能 。 


Lin AMJ Y SPC, FPC ži 
Reduce 编程 模型 的 Apriori 4E 
ERA Hadoop 集群 来 进行 挖 扩 


u. 


I DPC 三 种 基于 Hadoop 的 Map- 
种 算法 ， 这 三 种 算法 在 不 同 程度 
中 DPC 利用 该 特征 动态 地 


组 合 各 种 长 度 的 候选 项 ， 比 单 通道 的 SPC 和 固定 通道 组 合 的 


FPC 表现 要 好 。Li 等 人 中 通过 应 用 基本 的 Map-Reduce 功能 ， 


友 代 地 产生 频繁 项 目 集 ， 并 实现 了 完全 基于 Map-Reduce 的 并 


行 化 Apriori 算法 。Yu 等 人 加 提出 了 一 种 新 的 算法 实现 思路 ， 
在 每 个 事务 上 生成 可 能 的 频繁 项 集 ， 


每 次 迭代 中 独立 的 挖掘 频 


繁 项 集 再 合并 结果 , 从 而 进一步 提高 ; 


运行 效率 。 基于 Hadoop 的 


Apriori 的 其 他 改进 版 本 可 参看 文献 [7~11]。 


以 上 所 有 的 算法 都 是 基 了 
编程 模型 实现 ， 尽 管 这 些 算 法 都 作出 了 不 同 程度 的 改进 


Ea 


Hadoop 的 文件 存储 系统 决定 的 大 下 
制 了 算法 的 性 能 。 而 近年 来 流行 的 Spark 计算 框架 ,与 Hadoop 
基于 磁盘 的 计算 方式 不 同 ， 可 以 有 效 地 在 内 存 中 运行 迭代 式 的 
算法 ,因此 ,许多 研究 人 员 将 Apriori 算法 应 用 到 Spark 框架 中 ， 


zi 


F Hadoop 框架 ， 应 用 Map-Reduce 


磁盘 读 写 操作 却 极 大 地 限 


相 较 于 各 种 基于 Hadoop 的 Apriori 改进 算法 ， 效 率 又 有 了 质 的 
提升 。Qiu 等 人 0 实现 了 名 为 YAFIM 的 基于 Spark 的 Apriori 


算法 , 该 算法 充分 利用 Spark fi 
基于 内 存 的 并 行 计算 , 算法 简单 而 又 高 效 , 其 计算 比 基 于 Map- 
Reduce 的 算法 快 了 约 8 倍 的 速度 。Yang 等 人 031 引 入 了 一 种 新 
的 基于 矩阵 的 修剪 ， 以 减少 候选 项 集 的 数量 ， 减 小 搜索 开销 。 
Sethi 等 人 0 利用 数据 集 的 垂直 布局 来 解决 在 每 次 迭代 中 扫描 


数据 集 的 问题 ， 并 在 不 同上 
实验 ， 验 证 算法 性 能 。 基 
[15-16]. 


BEJEZE ME: 
T Spark f 


EAS RIS 


E, 如 RDD 算 子 操作 和 


I YAFIM 算法 进行 对 比 


UE: 


他 改进 版 本 可 参看 文献 


基于 项 编码 的 频繁 


据 格式 59 挖掘 频繁 项 集 的 算法 ， 旨 在 减少 对 于 整体 数据 的 扫 


项 集 挖掘 算法 ， 是 一 种 改进 的 使 用 垂直 


Lt 


描 次 数 和 对 候选 项 集 进 行 剪 枝 ， 从 而 提高 算法 效率 ， 由 于 采用 


码 的 方式 表示 某 个 项 


在 所 有 每 条 数据 中 的 出 现 情况 ， 因 此 文 


持 


根 
位 


度 、 置 信 度 和 提升 度 


等 指标 7 的 判断 将 变 得 更 为 简便 。 


项 编码 的 规则 为 :编码 的 长 度 为 数据 库 中 数据 记录 的 条 数 ， 


据 数 据 库 中 数据 记录 


的 


个 位 置 设 为 “1 


的 排序 ， 每 一 条 记录 对 应 编码 中 的 一 个 


置 ， 如 果菜 个 项 出 现在 第 i 条 数据 记录 中 ， 就 相应 的 将 编码 
， 否 则 设 为 “0”。 例如， 假设 数据 库 中 
kA 5 条 数据 记录 (T1，T2，…，T5)， 而 某 一 个 项 出 现在 数据 


记录 T2. T4 中 ， 那 么 根据 编码 规则 可 以 得 到 该 项 的 编码 为 


01 


010。 


2.2 ”和 迭代 计算 过 程 
应 用 上 述 方 法 ， 得 到 所 有 项 的 编码 ， 每 个 项 编码 中 “1” 的 
出 现 次 数 即 为 该 项 在 整个 数据 集中 的 出 现 次 数 ， 若 大 于 预先 设 


该 


将 


1i373 0001110110, B 项 的 编码 为 0001011110, 则 {A,，B} 项 集 的 
2553 73(0001110110) & (0001011110)- 0001010110， 该 编码 可 反 
A. B 两 项 同时 出 现 的 情况 ， 并 根据 “1” 出 现 的 次 数 计算 其 


映 


的 最 小 支持 度 和 数据 
项 属于 频繁 1 项 集 ， 
对 于 频繁 ktl 项 集 


总 条 数 的 乘积 ， 即 满足 支持 度 条 件 ， 则 
保存 所 有 频繁 1 项 集 及 其 对 应 的 编码 。 
的 计算 , 则 和 迭代 地 以 频繁 k 项 集 为 输入 ， 


频繁 k 项 集中 的 项 编码 两 两 进行 按 位 与 运算 , 例如 A. 项 的 编 


是 否 满足 最 小 支持 度 和 最 小 置信 度 要 求 ， 如 果 满 足 要 求 ， 则 项 


B 


ES 


后 ， 更 新 频繁 项 集 ， 从 而 继续 挖掘 频繁 k+2 项 集 ， 以 此 类 推 ， 
友 代 直至 频繁 k 项 集 为 空 时 , 算法 停止 。 输 出 所 有 的 频繁 项 集 ， 
频繁 1 项 集 至 频繁 k-1 项 集 。 算 法 迭代 过 程 算 法 1 所 示 : 
算法 1 基于 项 编码 的 频繁 项 集 挖 气 迭 代 过 程 . 


输入 : 编码 化 的 频繁 1 项 集 C， 最 小 支持 度 min_sup， 总 记录 数 size; 


从 


(A. B} 是 一 个 频繁 项 集 。 得 到 所 有 满足 条 件 的 频繁 k+l 项 集 


输出 : 频繁 项 集 上. 


Q Ce = C; 


© while Ck.size > 6 


BE: sum(x) 表 示 计 算 编码 x 中 “1” 的 出 现 次 数 


201 Oe 


chinaXiv 


for i in 


CR 


Temp-(); ”/* 临 时 变量 ， 记 录 频 繁 k+1 项 集 */ 


for j in Ck - i 


if (iU J).length - i.length == 1 and 


sum(i& j) > size * min sup /* 判 断 生 成 的 项 集 是否 是 k+1 项 


集 ， 同 时 判断 该 项 集 是 否 满足 支持 度 条 件 */ 
© L.add(i  j ); 


Temp.add(i'U j ); 


end if 


end for 


end for 


@ Ck = Temp; 


的 频繁 k+1 项 集 ， 


end while 


3 “IEBDA 算法 


Wl, ds 


3.1 


在 本 节 中 ， 本 文 


/* 更 新 频繁 k 项 集 ， 用 于 下 一 轮 送 代 ， 控 气 下 一 轮 
整个 迭代 直 


到 cx 为 空 停止 y/ 


# 细 介绍 IEBDA 算法 ， 该 算法 基于 Spark 


鉴 基 于 项 编码 的 频繁 项 集 挖掘 算法 中 ， 利 ) 
码 表示 每 一 项 在 每 条 数据 中 出 现 情况 ， 
剪 枝 的 思想 , 致力 了 
从 而 减少 IO 开销 和 节约 内 存 空 
计算 。3.1 节 将 介绍 Spark 平台 

在 Spark 上 实现 。 
Spark 平台 


F 解决 在 每 次 迭代 中 重复 扫 


项 编 


并 以 利用 这 一 特点 进行 
数据 集 的 问题 ， 
zs 间 ， 并 行 化 地 完成 频繁 项 集 的 
，3.2 节 则 详细 讲述 该 算法 如 何 


SparkP20 是 


加 州 大 学 1 


克利 分 校 的 AMP 实验 室 所 开源 的 


个 通 / 


言 编写 ， 


的 大 规模 数据 
专注 于 


基于 内 存 的 分 布 式 计算 ， 


快速 处 理 引 擎 ， 其 平台 完全 
于 计算 的 中 间 结 果 


Scala 语 


保存 在 内 存 中 而 不 是 像 Hadoop 一 样 保存 在 HDFS 文件 系统 上 ， 


因此 大 大 减少 了 UO 开销 ， 在 部 分 实验 中 ， 其 性 能 其 
Hadoop 的 Map-Reduce 编程 模型 上 百倍 PH。 
用 称 为 弹性 分 布 式 数 据 集 (RDD ) 的 数据 抽象 P9， 
RDD 是 一 组 不 可 变 的 数据 对 象 , 在 实 
上 的 。 RDD 可 以 通过 
而 成 ， 它 是 一 种 只 读 的 数据 结构 ， 


Spark 采 


同 的 集群 节点 
他 RDD 转换 


至 超过 


际 的 存储 中 数据 保存 在 不 
读 取 数据 创建 ， 也 可 以 从 其 
且 创 建 不 可 


IE, Moa fii 


E 


居 的 正确 性 。 此 外 ，Spark fi) 


据 计 算 中 缺 省 的 数 和 
方式 可 以 实现 对 数 和 


ER, ， 对 于 经 常 需要 访问 的 数据 ， 这 种 缓存 
昌 的 快速 访问 ， 这 一 点 对 于 和 迭代 式 的 程序 来 


说 ， 可 以 大 大 减少 运行 时 间 ， 这 也 是 本 文选 择 Spark 平台 来 实 


315132 


赖 关系 信息 ， 
XU. EI 


DAR 


多 种 编程 语言 ， 


"t 


常用 的 例如 Java, Scala 和 Python 45, 


改进 的 原因 。Spark 以 图 的 形式 保存 不 同 RDD 之 间 的 依 
这 种 RDD 关系 图 被 称 为 谱系 图 Po。 任 
谱系 图 中 的 依赖 关系 ， 重 新 计算 以 恢复 ， 从 
而 保证 整个 Spark 生态 环境 的 容错 性 。 


何 RDD 的 


Spark 的 RDD 编程 支持 
这 一 特 


点 也 使 得 其 学 习 成 本 大 幅度 降低 。 


如 图 1 所 示 是 搭建 在 HDFS 文件 系统 和 YARN 调度 工 


上 的 Spark 架构 ,在 该 架构 中 ，Spark 集群 中 的 主 节点 ,接收 来 


自用 户 


交 的 应 | 


的 请 求 ， 


程序 分 配 到 Worker 节点 上 ， 分 布 式 的 运行 各 自 
务 ， 数 据 一 旦 从 HDFS 文件 系统 中 读 入 ， 就 把 处 理 


VARI. 


Chi 
等 : "ous SV naci ; 


过 YARN 的 ResourceManager 进程 将 用 户 提 


的 中 间 结 果 


保存 在 绥 存 中 ， 无 须 多 次 扫描 磁盘 获取 数据 ， 加 快 数据 的 访问 


速度 。 处 理 的 


式 展示 给 用 户 。 


结果 可 以 写 回 到 HDFS 中 也 可 以 通过 可 视 化 的 方 


应 用 程序 


SparkContext 


Worker 


ERES 


Executor 
| ek | | Tesk | 


EE utor 


EE | Task | 


HDFS 


3.2 


图 1 HDFS 文件 系统 和 YARN 调度 工具 之 上 的 Spark 架构 


生成 频繁 1 项 集 ， 


IRI 


IEBDA 算法 的 实现 
在 整个 算法 的 执行 中 ， 大 致 分 为 两 步 ， 第 一 步 扫描 数据 自 


Yr 


的 广播 变量 


IT 


中 为 全 部 节点 所 共享 ， 


Cbroadcast variable ) 


巴 频繁 1 项 集 作为 频繁 k 项 集 , 存 入 Spark 
。 广 播 变量 在 整个 Spark 集群 
可 以 减少 数据 的 访问 的 时 间 开 销 ， 因 为 


频繁 项 集 存储 的 形式 是 每 个 项 集 及 其 对 应 的 编码 的 键 值 对 形式 ， 


存储 频繁 项 集 占 据 的 空 
第 二 步 ， 和 迭代 的 计算 和 输出 频繁 kH 项 集 ， 每 次 迭代 ， 
节点 上 并 行 化 地 计算 生成 的 k+l 项 集 及 其 编码 ， 并 完成 剪 枝 工 
不 满足 支持 度 条 件 的 kH 项 集 , 即 可 得 到 频繁 k+ 
把 频繁 k+l 项 集 蔡 换 广 播 变量 中 的 频繁 k 项 集 ， 


TE, HER T 
项 集 ， 


间 远 小 于 存储 完整 数据 集 


需要 的 空间 。 
在 每 个 


开始 


下 一 轮 的 迭代 ， 
。 因 为 并 行 化 


直至 无 法 再 产生 满足 支持 度 条 件 的 更 高 级 频繁 
也 计算 频繁 k+l 项 集 ， 在 不 同 节点 上 ， 可 能 
会 产生 重复 的 频繁 项 集 ， 因 此 每 轮 迭 代 都 需要 去 重 ， 


在 小 数据 


改 上 的 表现 可 能 较 差 ， 但 是 应 | 


到 大 数据 环境 ， 去 重 所 花费 的 


时 间 相 比 于 挖 


昌 计 算 的 时 间 影 响 不 明显 ， 因 此 算法 的 效率 也 能 


得 到 保证 。 下 面 将 详细 阐述 了 EBDA 算法 在 Spark 上 的 实现 。 
32.1 计算 频繁 1 项 集 


计算 频繁 1 AA 


式 存储 的 数据 ， 


EJ ftn 2 所 示 。 
基于 项 编码 的 频繁 项 集 挖掘 算法 处 理 


的 是 使 用 垂直 数据 格 


与 之 类 似 , IEBDA 算法 输入 的 数据 也 需要 先 格 
式 化 。 原 始 数据 读 取 为 成 RDD 结构 后 ， 
函数 和 groupByKeyO 函 数 ， 得 到 所 有 项 及 其 在 每 条 数据 记录 
中 的 出 现 情况 ,将 原始 的 数据 转换 为 形 如 <1i, T>, 
原始 数据 中 的 一 个 项 ,Ti 表示 包含 的 数据 记录 id 的 集合 ， 即 
表示 所 有 五 出 现 的 记录 的 集合 。 利 
化 的 计算 每 一 个 项 的 编码 ， 


通过 RDD 的 flatMap() 


其 中 五 表示 


J] RDD 的 mapO 函 数 ， 并 行 
得 到 项 编码 的 键 值 对 数据 <7 , E>, 


其 中 Ei 表示 所 对 应 的 编码 。 
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据 
点 
Æ 


ANS 


个 


会 


则 


flatMap(line => line.getTransactions()) 


转化 为 RDD 的 原始 数据 


flatMap(x=> x.split(" *)) 


map(_.2 => getEncoding( .2)) 


filter( .2 => getFrequent(min_sup)) 


频繁 1 项 集 


图 2 频繁 1 项 集 计算 流程 图 


此 ,就 求 出 了 所 有 1 项 集 及 其 对 应 的 编码 数据 ,使 用 RDD 
filter0 来 去 除 不 符合 支持 度 要 求 的 项 编码 键 值 对 ， 留 下 的 数 


合作 其 


ChinaX iV 合 p] 
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@  Temp.dropDumplicates(); /* 分 布 式 下 需要 进行 汇总 去 重 */ 


b = Temp; 


B = broadCast(Temp); 


/* 更 新 频繁 k 项 集 和 广播 变量 ,用 于 下 一 轮 迭 代 , 挖掘 下 一 轮 的 频繁 k+1 


项 集 ， 整 个 迭代 直到 b 为 空 停止 */ 
end while 


在 每 一 次 的 迭代 中 ， 都 将 保存 在 广播 变量 中 的 频繁 k DUE 
读 取 为 RDD 数据 结构 ， 利 用 map(O) 函 数 对 该 RDD 函数 中 的 每 


个 项 集 与 广播 变量 中 的 候选 项 集 求 并 集 , 这 一 步 是 并 行 
因此 比 单机 上 的 循环 要 高 效 很 多 。 根据 Apriori 算法 的 原 
文 从 频繁 k WRA 
必须 比 原来 的 项 集 的 长 度 大 1。 
过 滤 不 符合 条 件 的 项 集 后 ,计算 所 有 候选 k+l 项 集 的 


计算 ， 
E 本 


成 候选 kH 项 集 ， 在 这 里 得 到 的 项 集 的 长 度 


编码 ， 


根据 RDD 的 计算 方式 ， 这 一 步 也 可 以 并 行 化 地 处 理 ， 但 是 本 
步骤 并 行 化 处 理会 生成 部 分 重复 的 项 集 ， 在 分 布 式 计算 时 ， 为 
了 提高 效率 ， 先 保留 所 有 项 集 ， 在 每 轮 迭 代 结束 前 再 收集 各 个 


节点 的 结果 ， 统 一 进行 去 重 操作 。 编 码 的 计算 ， 只 需要 将 做 


(bit 
ir 
qm am 
Wu 


该 候选 k+1 项 集 的 两 个 k 项 集 的 编码 做 按 位 与 运算 即 


即 为 频繁 1 项 集 ， 将 此 数据 设置 为 广播 变量 ， 写 入 到 所 有 节 


点 的 缓存 中 ， 方 便 数据 的 访问 。 保 存在 广播 变量 中 的 频繁 1 项 


数据 将 作为 下 一 步 迭 代 生 成 频繁 2 项 集 的 频繁 k 项 集 ， 是 整 
JST BER kH 项 集 的 开始 ， 如 果 频 繁 1 项 集 为 空 ， 则 不 
进行 迭代 , 直接 输出 最 后 结果 为 空 。 如 果 频 繁 1 项 集 不 为 空 ， 

以 此 为 欠 代 挖掘 频繁 k 项 集 的 输入 数据 ,进行 下 一 步 的 挖掘 。 


这 


样 的 处 理 方式 是 为 了 减少 后 续 和 迭代 消耗 的 时 间 。 


3.22 ikAXAE AERE k+l 项 集 


RISIA k+l 项 集 的 伪 代 码 如 算法 2 所 示 。 
算法 2 IEBDA 算法 的 频繁 项 集 挖掘 迭代 过 程 
输入 : 广播 变量 中 的 频繁 1 项 集 B， 最 小 支持 度 min sup. iid 


输出 ;频繁 项 集 上. 


假设 : sum(x) 表 示 计 算 编 码 x 中 “1” 出 现 次 数 
(Db = B.parallelize(); /* 并 行 化 */ 


L.addAll(B) 

© while b.size > 6 

G  Temp-(); /# 临 时 变量 ， 记 录 频 繁 k+1 项 集 */ 
由 foreach i in b 

& for j in B 


(6 if (i. 1Uj. 1).length - i. 1.length == 1 and 


sum(i. 2& j. 2) > count * min sup /* 判 断 生成 的 项 集 是 否 是 
k+1 项 集 ， 同 时 判断 该 项 集 是 否 满足 支持 度 条 件 */ 

© L.add(iU J ); 

Temp.add(i U J ); 

end if 


end for 


end for 


可 。 得 到 所 有 候选 k+l 项 集 及 其 编码 后 ， 再 利用 和 判断 频繁 1 
项 集 一 样 的 方法 ， 来 判断 候选 k 项 集 是 否 符合 频繁 项 集 的 条 
件 ， 从 而 得 到 所 有 的 频繁 k+1 项 集 。 收 集 所 有 节点 的 结果 并 完 


成 去 重 。 
若 生成 的 频繁 H 项 集 不 为 空 , 则 将 其 作为 新 的 广播 


变量 ， 


蔡 换 掉 原 来 的 频繁 K 项 集 ， 进 而 迭代 计算 ， 直 到 频繁 k+l 项 集 
为 空 ， 输 出 2.1 节 中 得 到 的 频繁 1 项 集 和 本 节 中 和 欠 代 计算 出 的 


一 轮 的 频繁 k 项 集 ， 作 为 最 终 的 结果 。 
3.2.3 总 体 流程 


在 整个 算法 中 ， 第 一 步 的 挖掘 过 程 将 原 数据 集 转换 成 编码 


格式 ， 并 作为 广播 变量 分 发 到 所 有 节点 ， 这 一 步 相 较 已 有 的 算 


法 ， 消 耗 时 间 会 更 长 ， 但 是 在 后 续 迭 代 过 程 中 ， 不 需要 再 扫描 


NS 


完整 数据 集 , 只 需要 在 频繁 1 项 集 


编码 的 基础 上 进行 计算 即 可 ， 


因此 , 随 着 迭代 轮 数 的 增加 , 该 算法 的 整体 优势 将 会 体现 出 来 ， 


在 本 文 4.1 节 中 将 着 重 分 析 该 算法 在 大 数据 多 轮 从 代 下 的 
如 图 3 所 示 即 为 正 BDA 算法 的 整体 流程 


R] 


4 ”实验 与 结果 


优势 。 


本 章 将 IEBDA 算法 和 其 他 频繁 项 集 挖 掘 算 法 应 用 到 如 表 


1 所 示 的 数据 集 上 。 其 中 ， 校 园 一 卡通 数据 集 来 自 中 南大 学 数 


蘑菇 数据 集 


据 云 平 台 提供 的 学 生 选 修 课 数据 ， 实 验 中 选取 软件 学 院 3 个 年 
级 共 2 842 名 学 生 的 选课 数据 ， 学 院 提供 的 选修 课 共 计 27 门 。 
加 州 大 学 欧文 分 校 UCI 数 据 库 提供 的 机 器 学 习 开 


是 
源 数据 集 ， 实 验 中 以 去 掉 全 部 空 值 属性 后 剩 下 的 属性 值 为 项 进 
T 实验 ， 原始 数据 的 下 载 Jh H 


E 为 


http://archive.ics.uci.edu/ml/datasets/Mushroom, Retail 数据 集 为 


FIMI(Frequent Itemset Mining Implementations Repository) 开 源 


的 数据 集 ， 下 载 地 址 为 http:/fimi.ua.ac.be/data/retail.dat 。 
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4.1 并 行 化 算法 效率 测试 


实验 集群 环境 如 下 ; 搭建 以 1 ANA cpu, 4G 内 存 ，1T 硬 


盘存 储 空间 的 电脑 作为 主 节点 ; 两 台 6 核 cpu，64G 内 存 ，12T 
硬盘 存储 空间 为 从 节点 的 集群 ，jdk 版 本 为 1.7，scala 版 本 为 
2.10.4，Hadoop 版 本 为 2.5.2，Spark 版 本 为 2.0.2。 实 验 中 本 文 
主要 把 IEBDA 算法 和 表现 较 好 的 基于 Hadoop 的 分 布 式 DPC 
Y 算法 外 以 及 基于 Spark 的 YAFIM 算法 0 和 HFIM 算法 [9 进行 
比较 ， 证 明 算 法 的 性 能 。 
如 图 4 所 示 ， 是 这 几 个 算法 在 每 一 轮 迭 代 中 所 消耗 时 间 的 
对 比 ， 为 了 防止 算法 运行 迭代 的 次 数 过 少 ， 本 文 给 每 个 数据 集 
上 设置 了 各 自 的 最 小 支持 度 ， 使 得 迭代 的 次 数 在 7 次 左右 。 图 
4 中 子 图 a 为 校园 一 卡通 数据 集 上 设置 最 小 支持 度 为 0.35 的 运 
行 时 间 对 比 , 子 图 b 为 蘑菇 数据 集 上 设置 最 小 支持 度 为 0.35 的 
算法 时 间 运 行 对 比 ， 子 图 c 为 Retail 数据 集 上 设置 最 小 支持 度 
为 0.075 的 算法 运行 时 间 对 比 。 整 体 上 看 ， 基 于 Spark 的 三 个 
算法 要 比 基 于 Hadoop 的 DPC 算法 效率 高 上 许多 ，Spark 基于 
内 存 的 计算 相 比 于 Hadoop 优势 明显 。 
如 图 4 子 图 a 可 知 ， 各 分 布 式 算法 ， 在 校园 一 卡通 数据 集 
上 的 总 运行 时 间 ， 都 高 于 表 2 中 所 示 同 样 条 件 下 单机 版 基于 项 
编码 的 频繁 项 集 挖掘 算法 所 需 的 2.147 秒 ， 因 为 在 单机 能 处 理 
的 数据 量 下 ， 网 络 通信 的 开销 相对 影响 更 大 ， 基 于 单机 内 存 的 
计算 效率 也 因此 远 高 于 通过 网 络 连接 的 分 布 式 的 计算 效率 。 因 
此 ， 基 于 分 布 式 的 频繁 项 集 挖掘 算法 并 不 适用 于 小 数据 集 的 场 
景 。 相 反 ， 在 子 图 b 和 子 图 c 中 ， 原 先 单机 版 算法 挖掘 效率 较 


N 
把 频繁 1 项 集 设 
为 广播 变量 


DS 


图 3 IEBDA 算法 流程 


— 甚至 无 法 完成 的 挖掘 的 任务 , 都 可 以 在 可 接受 的 时 间 内 完成 ， 
E IE anusga ”所 以 ， 在 数据 量 较 大 的 场景 之 下 ， 通 过 分 布 式 的 手段 ， 能 有 效 
Scu » "m 保证 算法 的 效率 。 
Me " "V 如 图 4 三 张 子 图 的 第 一 轮 和 迭代 情况 可 知 ， 由 于 IEBDA 算 
Pope Me s 法 在 迭代 开始 之 前 ， 会 把 数据 集 转换 为 频繁 1 项 集 的 编码 ， 
将 其 加 入 到 广播 变量 , 因此 IEBDA 算法 在 第 一 轮 迭 代 时 ,消耗 
如 表 2 所 示 则 是 在 2 核 cpu，8G 内 存 ，1T 硬盘 存储 空间 时 间 往 往 会 比 YAFIM 算法 和 HFIM 算法 消耗 时 间 要 长 ， 但 是 


单机 环境 下 ， 采 用 基于 项 编码 的 频繁 项 集 挖掘 算法 


挖掘 表 1 ， 在 后 续 的 迭代 过 程 中 ， 广 播 变 量 加 快 了 数据 的 访问 速度 ， 因 而 


n 


中 的 三 个 数据 集 所 需 时 间 。 在 实验 中 ， 对 各 数据 集 ， 设 置 最 小 ERT E ERZES, IEBDA 算法 运行 速度 明 
支持 度 为 0.35， 运 行 5 次 算法 的 代码 ， 取 这 5 次 运行 时 间 的 平 ” 显 提升 ,超过 其 他 两 种 算法 ,这 一 点 使 得 在 多 轮 夫 代 的 情况 下 ， 
均值 作为 各 个 数据 集 上 运行 基于 项 编码 的 频繁 项 集 去 所 该 算法 运行 总 时 间 少 于 其 他 分 布 式 算法 。 可 想 而 知 ， 如 果 人 迭代 
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需 的 时 间 。 由 表 中 的 数据 可 知 ， 单 机 版 的 基于 项 项 。” 轮 数 较 少 ， 则 第 一 轮 迄 代 多 花费 的 时 间 不 一 定 能 被 后 续 几 轮 的 
集 挖掘 算法 在 小 数据 集 上 的 表现 非常 好 ,但 随 着 数据 量 的 增加 ， ”加 速 弥 补 ， 因 此 IEBDA 算法 最 适合 的 场景 还 是 大 数据 环境 下 


Ne 
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aH 
hs 
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算法 效率 急剧 下 降 ， 而 在 Retail 这 样 的 大 数据 集 上 ， 由 于 内 存 — MPEISIABIOAA. 

等 限制 , 算法 将 无 法 运行 出 最 终结 果 。 因 此, 在 大 数据 环境 下 ， 如 图 4 子 图 a 中 第 六 轮 狗 代 可 知 ， 当 人 迭代 到 了 最 后 阶段 ， 
分 布 式 的 Apriori 算法 是 有 必要 的 。 频繁 项 集 可 能 已 经 非常 少 ， 此 时 IEBDA 算法 中 通过 广播 变量 
表 2 基于 项 编码 的 频繁 项 集 挖 据 算 法 在 数据 集 上 的 运行 时 间 TERUSURGUERUI SERERE E30. YAFIM SHRSESET EAS 
MES TEFIE 的 查询 和 HFIM 3 PLA IR, RETER Fee 
— v YAFIM 算法 和 HFIM 算法 的 效率 可 能 会 高 于 IEBDA 算法 ， 但 

BDEGA ru 是 由 于 频繁 项 集 过 少 ， 这 种 时 间 差 几乎 可 以 忽略 不 计 ， 因 此 ， 
We z 整体 上 来 说 IEBDA SEDE AHSCXRIRMU ARE, HEERE 
优 于 YAFIM 算法 和 HFIM 算法 ， 也 因而 更 适合 于 迭代 挖掘 次 
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数 较 多 的 情况 。 4.3 算法 优 缺点 分 析 
- 综 上 所 述 , 本 文 提出 的 IEBDA 算法 , 充分 利用 项 编码 表达 
Ln 数据 信息 ， 省 去 了 耗 时 的 数据 集 重复 扫描 ， 简 化 了 计算 。 基 于 
— Spark 平台 实现 的 并 行 化 处 理 , 进一步 提高 算法 的 效率 。 应 对 于 
前 流行 的 大 数据 环境 ， 在 迁 代 挖掘 次 数 较 多 的 场景 下 ， 该 算 


法 具有 比 YAFIM 算法 和 HFIM 算法 更 高 的 效率 。 
但 是 该 算法 仍 有 值得 进一步 改进 的 地 方 。 第 一 点 ， 由 于 访 
算法 是 基于 传统 的 Apriori 算法 进行 改进 ， 候 选 kt1 项 集 由 频 
繁 k 项 集 生成 的 规则 并 没有 改变 ， 每 一 步 选 代 需 要 更 新 频繁 k 
项 集 进行 下 一 轮 的 挖掘， 虽然 避免 重复 扫描 数据 集 ， 但 是 更 新 
操作 在 分 布 式 环境 下 的 通信 开销 仍然 是 不 可 忽视 的 ， 所 以 ， 一 
个 可 能 的 解决 思路 是 利用 已 有 的 频繁 k 项 集 生成 候选 kin 项 集 
而 不 仅仅 是 候选 kH 项 集 。 第 二 点 ， 随 着 迭代 的 进行 ， 如 果 频 
繁 K 项 集 的 数量 已 经 减 小 到 了 单机 能 处 理 的 范围 内 ， 那 么 继续 
UI Spark 的 广播 变量 ， 效 率 不 见得 比 单机 计算 高 ， 还 会 增加 
额外 的 网 络 通信 开销 ， 传 统 的 设置 阔 值 判断 使 用 i 
E 是 单机 处 理 的 方法 在 这 种 场景 下 不 能 解决 这 一 问题 ， 因 为 这 种 
0 方式 会 在 每 一 轮 迁 代 时 判断 分 散 存储 在 不 同 节点 上 的 数据 的 总 
容量 是 否 小 于 六 值 ， 而 这 样 的 处 理 本 身 也 会 增加 通信 开销 ， 另 
外 ， 出 现 频繁 k 项 集 的 数量 能 被 单机 处 理 的 情况 在 实际 应 用 中 
所 占 比重 也 很 小 ， 这 意味 着 适 代 过 程 中 做 的 多 数 判 断 实际 上 属 
于 “无 用 功 ”， 因 此 这 种 方法 不 适用 。 目 前 看 来 ， 由 于 这 种 情 


时间 局 


$ 
EN 
B 
BE 
Bi 


| E » 1 * RF f 况 在 大 数据 环境 下 本 身 出 现 得 比较 少 ， 即 使 出 现 导致 的 计算 效 
i KFIR DUCUM TE IRAE 速度 似乎 是 比较 好 所 
— o HEFER DEMEI H EPI BE BEMALEN 
策略 
42 集群 扩展 性 测试 -— 
-H A 


IEBDA FEH FARAGE I SERR. 因此 本 节 
的 实验 使 用 Retail 数据 集 作 为 实验 数据 集 ， 设 置 最 小 支持 度 为 虽然 本 文 提出 的 算法 在 大 数据 环境 下 ， 比 原先 的 分 布 式 算 
0.075。 实 验 利用 虚拟 机 模拟 双核 cpu. 6G 内 存 、1T 存储 空间 ”法 更 适合 于 迭代 挖掘 次 数 较 多 的 场景 ， 但 是 还 有 很 多 值得 进 


的 节点 ， 分 别 测试 节点 数 从 1~5 的 集群 条 件 下 ， 记 录 运 行 十 次 ”” 步 研究 的 问题 。 在 频繁 项 集 的 生成 规则 上 ， 可 以 考虑 改进 原先 
di d MU 的 迭代 式 生 成 规则 ， 充 分 利用 已 有 的 频繁 1 项 集 ， 在 分 布 式 环 

如 图 5 所 示 ， 在 3 个 节点 以 下 ， 节 点 数 与 运行 时 间 大 致 成 ” 境 下 ， 如 何 采用 合适 的 数据 结构 减少 通信 开销 ， 进 一 步 加 快 算 
hits diario 随 着 节点 的 增加 ， 算 法 效率 的 法 计算 速度 ， 也 是 值得 探索 的 问题 。 因 此 ， 将 继续 研究 频繁 项 


提升 速度 减缓 ， 整 体 上 来 看 ， 集 群 节点 越 多 ， 计 算 能 力 越 强 ， 集 挖掘 算法 的 改进 。 
挖掘 所 用 的 总 时 间 也 越 短 ， 所 以 ， 算 法 效率 随 着 节点 数 的 增加 
而 增加 。 
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